1. 研究背景

“人在环强化学习”(Human-in-the-loop Reinforcement Learning, HITL-RL)是一种将人类的知识、经验和反馈融入智能体训练过程的强化学习方法。相比传统的深度强化学习(DRL),HITL-RL 更好地利用了人类在复杂任务中的直觉与先验知识,帮助智能体更快速、有效地学习[1]

目前,HITL-RL在各种现实世界的应用中已经初步展示出其潜力,例如机器人运动控制[2]和大语言模型的开发[3],在 ChatGPT 训练过程中,正是通过结合大量的人类反馈,模型才能更准确地理解用户意图并作出合理回应。

尽管 HITL-RL 显示出显著的优势,现有的方法仍然面临两大挑战,限制了其进一步发展:

  • 人力成本高:由于智能体的行为不可预测,可能在训练过程中出现不安全或不理想的决策,这要求人类进行实时监督,增加了大量的人力成本。此外,当前的 HITL-RL 方法在高效利用人类反馈数据方面仍有待改进,这进一步提升了对人力资源的依赖。

  • 人类专业水平差异:在实际应用中,许多反馈往往来自非专家,而这些反馈可能不够准确,甚至会导致智能体学习偏差或作出错误的决策,影响最终的学习效果。

因此,设计能够降低人类成本并有效利用非专家指导的人在环强化学习方法,是当下重要的研究课题。

2. 研究现状

2.1 专家指导下的HIRL

在专家指导下的人在环深度强化学习(HITL-RL)方法可以表现为几种不同的形式,每种形式都有各自的优势,但同时也面临着相似的挑战,主要问题是对大量人类指导的依赖,导致人力成本过高。

从演示中学习

从演示中学习(Learning from Demonstration)让机器通过模仿人类的任务演示来学习行为策略,能够让智能体在训练初期快速收敛。然而,由于大部分学习过程是离线进行的,一旦智能体学习到的策略出现错误或不安全行为,它无法通过实时反馈来进行纠正。此外,这种方式依赖于大量高质量的演示数据,专家的时间和精力投入非常大。

基于人类演示使用模仿学习进行训练的方法已经取得了丰富的成果。早期关于从人类演示中学习的研究主要集中在教授更高层次的命令,比如控制机械臂的”挑选”、”移动”和”放置”[4], [5], [6] ,后来这些研究转向了轨迹层的规划[7]。在自动驾驶领域,早期由 Pomerleau 等人[8]设计的用于自主陆地车辆的神经网络具有单个隐藏层,使用从演示中学习的方法训练后,实现了从图像到离散动作的映射。一些研究者使用大约 100 小时的人类驾驶数据用于机器从演示中学习[9],实现了从摄像头图像到方向盘指令的策略映射。

从干预中学习

从干预中学习(Learning from Intervention)要求人类在智能体执行任务的过程中进行实时监督和干预[10], [11],在必要时纠正其行为。通过这种方式,智能体可以逐步提高策略的安全性和有效性。然而,人类监督者需要时刻保持警觉,随时准备干预,这不仅增加了人力投入,还会显著增加训练成本,特别是在长时间训练过程中。

大量研究使用的干预措施都建立在经过人类演示训练策略的基础上。Hilleli 和 El-Yaniv等人[12]提出了使用人类交互来训练分类器,当其检测到不安全状态时,使用基于人类演示的方法训练得到的安全策略来干预系统决策。[2]等人通过暂停任务,并训练模型模仿人类干预决策,训练好的干预模型能够取代人工,之后可以继续训练。研究结果表明,这种方法能够在简单的情况下工作得很好,但在复杂的情况中仍需改进。

从评估中学习

从评估中学习(Learning from Evaluation)中,人类不再提供具体的演示或直接干预[1],而是通过对智能体行为的反馈进行评估,帮助其调整策略。这种方法在复杂任务中很有用,尤其是人类难以提供详细操作演示的场景。然而,由于人类的反馈具有主观性和延迟性,智能体需要通过反复试探才能学会如何改进[13],这使得学习效率较低。同时,智能体依赖于大量的评估反馈,进一步增加了人力成本。

2.2 非专家指导下的HIRL

现有的 HITL-RL 方法通常依赖于专家级别的人类指导来训练模型,但在现实应用中,找到这样的完美专家非常困难。因此,研究者开始探索如何在非专家指导下进行有效学习。一种解决方案是设计评估机制,对人类的指导行为进行评分或筛选[14], [15]然而,这些评估机制往往缺乏足够的客观性,即使在某些情况下能够提供较为客观的评估,智能体所学到的策略仍然受限于非专家指导的质量,因为最终的策略效果与人类反馈的质量密切相关。

另外一些研究则尝试通过让多个代理同时参与训练并进行知识转移[16],例如通过基于 Kullback-Leibler 散度的相互正则化来交换知识[17]。但这种方法同样存在挑战,特别是代理之间的知识差异可能导致信息在传递过程中发生丢失或失真,进而影响策略的效果。此外,这类方法对计算资源的需求非常高,尤其是在面对复杂的状态空间和动作空间时,处理代理交互与正则化所需的计算量会大幅增加,导致训练时间显著延长。

3. 研究意义

因此,本课题的研究不仅有助于推动深度强化学习与人机交互技术的深度融合,还将为构建更加智能、安全、可靠的人机混合智能系统提供重要参考,对促进人工智能技术的可持续发展具有重要意义。

参考文献

  1. [1]F. Huang, N. Ji, H. Ni, S. Li, and X. Li, “Adaptive cooperative exploration for reinforcement learning from imperfect demonstrations,” Pattern Recognition Letters, pp. 176–182, Jan. 2023.
  2. [2]B. Hilleli and R. El-Yaniv, “Toward Deep Reinforcement Learning Without a Simulator: An Autonomous Steering Example,” Proceedings of the AAAI Conference on Artificial Intelligence, Jun. 2022.
  3. [3]R. Krishna, D. Lee, L. Fei-Fei, and M. S. Bernstein, “Socially situated artificial intelligence enables learning from human interaction,” Proceedings of the National Academy of Sciences, Sep. 2022.
  4. [4]X. Zhang, H. Ma, X. Luo, and J. Yuan, “LIDAR: learning from imperfect demonstrations with advantage rectification,” Frontiers of Computer Science, Feb. 2022.
  5. [5]M. Li, Y. Kang, Y.-B. Zhao, J. Zhu, and S. You, “Shared Autonomy Based on Human-in-the-loop Reinforcement Learning with Policy Constraints,” in 2022 41st Chinese Control Conference (CCC), 2022.
  6. [6]N. Stiennon et al., “Learning to summarize from human feedback,” arXiv: Computation and Language,arXiv: Computation and Language, Sep. 2020.
  7. [7]Z. Peng, H. Sun, and B. Zhou, “Non-local Policy Optimization via Diversity-regularized Collaborative Exploration,” Cornell University - arXiv,Cornell University - arXiv, Jun. 2020.
  8. [8]D. P. Losey, C. G. McDonald, E. Battaglia, and M. K. O’Malley, “A Review of Intent Detection, Arbitration, and Communication Aspects of Shared Control for Physical Human–Robot Interaction,” Applied Mechanics Reviews, Jan. 2018.
  9. [9]T. Osa, J. Pajarinen, G. Neumann, J. A. Bagnell, P. Abbeel, and J. Peters, “An Algorithmic Perspective on Imitation Learning,” Jan. 2018.
  10. [10]P. F. Christiano, J. Leike, T. B. Brown, M. Martic, S. Legg, and D. Amodei, “Deep Reinforcement Learning from Human Preferences,” Neural Information Processing Systems,Neural Information Processing Systems, Jun. 2017.
  11. [11]A. Nair et al., “Combining self-supervised learning and imitation for vision-based rope manipulation,” in 2017 IEEE International Conference on Robotics and Automation (ICRA), 2017.
  12. [12]B. Akgun, M. Cakmak, K. Jiang, and A. L. Thomaz, “Keyframe-based Learning from Demonstration,” International Journal of Social Robotics, pp. 343–355, Nov. 2012.
  13. [13]B. Akgun, M. Cakmak, J. W. Yoo, and A. L. Thomaz, “Trajectories and keyframes for kinesthetic teaching,” in Proceedings of the seventh annual ACM/IEEE international conference on Human-Robot Interaction, 2012.
  14. [14]S. B. Kang and K. Ikeuchi, “Toward automatic robot instruction from perception-mapping human grasps to manipulator grasps,” IEEE Transactions on Robotics and Automation, pp. 81–95, Jan. 1997.
  15. [15]Y. Kuniyoshi, M. Inaba, and H. Inoue, “Learning by watching: extracting reusable task knowledge from visual observation of human performance,” IEEE Transactions on Robotics and Automation, pp. 799–822, Jan. 1994.
  16. [16]D. Pomerleau, “ALVINN: An Autonomous Land Vehicle in a Neural Network,” Neural Information Processing Systems,Neural Information Processing Systems, Jan. 1988.
  17. [17]L. Ouyang et al., “Training language models to follow instructions with human feedback,” 0AD.

相关科研项目

人机智能协同关键技术及其在智能制造中的应用

人机混合智能系统双层智能测试评估技术研究